其他
EMNLP 2019 | 大规模利用单语数据提升神经机器翻译
编者按:目前,目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而,目标语言端的无标注数据一旦使用不当,反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据,微软亚洲研究院在 EMNLP 2019 上发表的论文中,提出一种简单的语料数据使用流程,只需要四个步骤就能极大地提高模型翻译结果。
无标注单语数据的有效性
表4:WMT 德英上方案比较
你也许还想看:
编者按:目前,目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而,目标语言端的无标注数据一旦使用不当,反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据,微软亚洲研究院在 EMNLP 2019 上发表的论文中,提出一种简单的语料数据使用流程,只需要四个步骤就能极大地提高模型翻译结果。
无标注单语数据的有效性
表4:WMT 德英上方案比较
你也许还想看: